빅데이터분석기사 23년 7회차

필기


1. 다음 중 하둡 분산 파일 시스템의 설명으로 옳은 것은?
  •  마스터, 픽터, 슬레이브 구조로 되어있다.
  •  데이터 노드가 마스터 역할을 한다.
  •  네임 노드 오류 발생 시 데이터 읽기 쓰기가 불가능하다.
  •  데이터를 블록으로 나누어 중복 저장하기 때문에 비용이 비싸다.

2. 다음 중 CRISP-DM 방법론의 순서로 옳은 것은?
  •  업무 이해 > 데이터 이해 > 데이터 준비 > 평가 > 모델링 > 전개
  •  업무 이해 > 데이터 준비 > 데이터 이해 > 모델링 > 평가 > 전개
  •  업무 이해 > 데이터 준비 > 데이터 이해 > 평가 > 모델링 > 전개
  •  업무 이해 > 데이터 이해 > 데이터 준비 > 모델링 > 평가 > 전개

3. 다음 중 수집된 정형 데이터의 품질 검증과 관련이 없는 내용은?
  •  완전성, 유일성, 유효성 등의 품질 기준을 정의하여 검증한다.
  •  업무규칙을 이용한 품질 검증은 비즈니스 특성만 알 수 있고, 데이터 오류는 검증하지 못한다.
  •  데이터 프로파일링은 데이터의 값뿐만 아니라 데이터의 구조 진단도 수행한다.
  •  저장된 데이터의 메타데이터 분석으로 품질 검증이 가능하다.

4. 빅데이터 분석 기획에서 하지 않는 것은?
  •  비즈니스 이해 및 범위 설정
  •  프로젝트 정의 및 계획 수립
  •  프로젝트 위험 계획 수립
  •  분석 데이터 준비 및 알고리즘 후보군 탐색

5. 다음 중 비정형 데이터가 아닌 것은?
  •  스마트폰 판매 가격 데이터
  •  스트리밍 음악 데이터
  •  SNS 업로드 사진
  •  숏폼 영상

6. 다음 중 계량적 수치로 표현 가능한 데이터가 아닌 것은?
  •  한 달간의 기온 예보
  •  국민의 정책 만족도
  •  통학시간
  •  개인의 견해

7. 분석 기획 단계에서 분석 과제의 우선순위를 정할 때 고려할 요소가 아닌 것은?
  •  전략적 중요도
  •  비즈니스 성과
  •  분석 데이터 적용 수준
  •  실행 용이성

8. 데이터 품질 요소 중 누락 여부를 검증하는 요소는?
  •  정확성
  •  완전성
  •  정합성
  •  적시성

9. 다음 중 데이터 3법과 관련이 없는 것은?
  •  개인정보보호법
  •  정보통신망 이용 촉진 및 정보보호 등에 관한 법률
  •  신용정보의 이용 및 보호에 관한 법률
  •  공공 데이터 제공 및 이용 활성화에 관한 법률

10. 기업의 분석 수준을 진단하기 위한 항목으로 적절하지 않은 것은?
  •  분석에 활용하는 데이터 종류
  •  분석 플랫폼 IT 인프라
  •  기업 내 분석 조직의 규모
  •  분석 과제의 수, 분석 결과 업무 적용 건수

11. 데이터 사이언티스트에게 요구되는 소프트 스킬에 해당하는 것은?
  •  통찰력
  •  빅데이터 지식
  •  분석 알고리즘
  •  통계 이론

12. 다음 중 데이터의 특성 3V에 해당하는 것은?
  •  규모, 다양성, 속도
  •  규모, 다양성, 가치
  •  다양성, 속도, 신뢰성
  •  규모, 속도, 가치

13. 데이터 사이언티스트의 역할로 틀린 것은?
  •  분석 모델에 대한 한계점은 배제하고 분석 과제를 진행한다.
  •  IT 기술 방법론과 알고리즘 등을 통해 데이터로부터 지식과 인사이트를 추출한다.
  •  데이터 처리 기술 이외에 커뮤니케이션과 프레젠테이션 등의 스킬이 요구된다.
  •  고객 내면에 있는 비즈니스 핵심 가치를 끌어내어 분석 결과를 업무에 적용시키는 컨설팅 능력이 필요하다.

14. 데이터가 처리되는 과정에서 변경되거나 손상되지 않고, 유지함을 보장하는 특성은?
  •  완전성
  •  정확성
  •  일관성
  •  무결성

15. 데이터의 일부를 공백 처리하거나 노이즈를 추가하는 비식별화 기술로 맞는 것은?
  •  가명처리
  •  데이터 삭제
  •  데이터 범주화
  •  데이터 마스킹

16. 아래 설명과 다른 유형의 데이터는?
- 어느 정도 정해진 구조가 있으나 변경될 수 있다.
- 데이터 구조를 메타와 스키마를 제공한다.
- 데이터로부터 구조를 유추할 수도 있다.
  •  HTML
  •  JSON
  •  RDB
  •  로그 데이터

17. 개인정보 비식별화 기술로 수치적 개인정보를 임의적으로 올림/내림 하는 것은?
  •  랜덤 라운딩
  •  제어 라운딩
  •  범위화
  •  부분합

18. 빅데이터 플랫폼에 대한 설명으로 틀린 것은?
  •  소프트웨어 계층에는 머신러닝을 수행할 수 있는 도구와 라이브러리가 포함된다.
  •  인프라 스트럭처 계층에서는 데이터 처리, 분석, 수집 및 정제를 수행한다.
  •  플랫폼 계층의 소프트웨어로 Hadoop, Spark, NoSQL 등이 있다.
  •  빅데이터 플랫폼은 클라우드 기반 서비스 뿐만 아니라 온 프레미스 환경도 포함된다.

19. 다음 특징에 해당하는 데이터베이스는 무엇인가?
- 오토 샤딩 (Auto shading)을 사용한다.
- 처리속도가 빠르며 문서 지향 NoSQL이다.
  •  Cassandra
  •  CouchDB
  •  DynamoDB
  •  MongoDB

20. 다음 데이터 분석가의 특징 중 틀린 것은?
  •  데이터 분석의 객관성을 위해 배경 지식을 배제해야 한다.
  •  주어진 질문에 대한 담만 잘하는 것이 아니라 그 답을 통해 무엇을 해야 하는지 해석하고 도출해야 한다.
  •  알고리즘 적용을 위한 기술보다 데이터가 가진 특성을 탐구하고 데이터의 관계성을 고민하는 데 많은 노력을 기울여야 한다.
  •  단순히 주어진 데이터뿐만 아니라 데이터를 이해하고 이를 기반으로 새로운 데이터를 가공하여 분석에 활용할 수 있어야 한다.

21. 다음 중 중심 경향값을 나타내는 통계량이 아닌 것은?
  •  최빈값
  •  평균
  •  중앙값
  •  표준편차

22. 데이터의 분포가 정규분포로부터 오른쪽 또는 왼쪽으로 치우친 정도를 보여주는 통계량은?
  •  왜도
  •  평균
  •  표준편차
  •  첨도

23. 데이터 전처리에 대한 설명으로 틀린 것은?
  •  데이터 전처리 작업은 반드시 레거시 시스템에서 전처리를 진행해야 한다.
  •  데이터 전처리는 분석 결과에 따라 반복적으로 수행될 수 있다.
  •  데이터 전처리 과정에서 발생한 오류는 데이터 분석의 신뢰성에 부정적인 영향을 미친다.
  •  데이터 분석가의 대부분이 가장 시간을 많이 소모하는 과정이다.

24. 다음 중 파생변수를 생성하는 방법으로 틀린 것은?
  •  주민등록번호에서 나이와 성별을 추출
  •  성적이 60점 미만이면 D, 60~70점이면 C로 성적을 계산
  •  소득 분포를 로그 변환을 통해 계산
  •  데이터 컬럼의 이름을 한글에서 영어로 변경

25. 다음 중 명목형 데이터를 요약할 때 사용하는 그래프가 아닌 것은?
  •  파레토 차트
  •  막대 그래프
  •  히스토그램
  •  파이 차트
위키해설
클릭하면 보입니다.
  히스토그램
26. 다음 중 이산형 확률변수의 확률분포에 해당하는 것은?
  •  정규분포
  •  t-분포
  •  이항분포
  •  F-분포

27. 최빈값에 대한 설명으로 틀린 것은?
  •  점 추정에 사용되는 통계량에 해당한다.
  •  중심 경향성 통계량에 해당한다.
  •  연속형 자료의 데이터 분포 특성을 정규성 측면에서 파악하기에 적절하다.
  •  데이터 분포의 모양이 왼쪽 꼬리가 긴 분포일 경우 '평균

28. 혈액형에 대한 설문조사를 할 때 결측값을 대체하는 가장 적절한 방안은?
  •  결측값을 최빈값으로 대체하여 분석한다.
  •  결측값이 있는 경우 해당 변수를 제거하고 분석한다.
  •  결측값을 NA로 표기하고 분석한다.
  •  SMOTE 기법을 활용하여 처리한다.

29. 다음 중 관측값이 쌍을 이루는 경우, 두 집단에 대한 비모수 검정 방법에 해당한느 것은?
  •  독립표본 t-검정
  •  대응표본 t-검정
  •  윌콕슨 부호 검정
  •  만-휘트니 U 검정

30. 일변량 분석에서 이상치를 판단하는 방법 중 틀린 것은?
  •  평균으로부터 표준편차 X 3 만큼 떨어진 값을 이상값으로 판단한다.
  •  히스토그램을 통해 평균값이나 중앙값으로부터 멀리 떨어진 범위를 이상값으로 판단한다.
  •  산포도를 활용해서 패턴에 포함되지 않는 데이터를 이상치로 판단한다.
  •  상자 그림에서는 이상치를 표현할 수 없다.

31. 데이터 정제에 대한 설명으로 틀린 것은?
  •  중복 데이터를 제거하는 과정을 통해 데이터의 신뢰도를 높일 수 있다.
  •  비정형과 반정형 데이터보다는 정형 데이터가 품질 저하 위험에 많이 노출되어 있다.
  •  데이터 오류 원인 분석 후에 데이터를 정제한다.
  •  데이터 품질 저하의 위험이 있는 데이터는 더 많은 정제 활동을 수행한다.

32. 다음 변환과 맞는 인코딩 방식은?
-------------------------------------------------
Food Name |  Categorical# | Calories
사과                 |               1           |     95
치킨                 |               2           |     231
브로콜리         |               3           |     50
-------------------------------------------------
==============================
-----------------------------------------------
사과 | 치킨 | 브로콜리 | 칼로리
    1        0             0             95
    0        1             0             231
    0        0             1             50
----------------------------------------
  •  원-핫 인코딩
  •  레이블 인코딩
  •  정수 인코딩
  •  문자 인코딩

33. 다음 중 시공간 데이터에 대한 설명으로 틀린 것은?
  •  시공간 데이터는 공간 데이터에 시간의 흐름을 결합한 데이터이다.
  •  시공간 데이터는 공간 데이터와 시간 데이터를 따로 추출할 수 있다.
  •  공간 데이터는 다차원 구조이다.
  •  공간 데이터는 시간 데이터를 계산하여 추출할 수 있다.

34. 다음 중 중심극한정리에 대한 설명으로 틀린 것은?
  •  표본의 개수가 커지면 모집단의 분포와 상관없이 표본분포는 정규분포에 근사하게 된다.
  •  중심극한정리는 모집단의 분포가 연속형일때만 성립한다.
  •  표본평균이 이루는 표본분포와 모집단 간의 관계를 증명함으로써 수집한 표본의 통계량을 통한 모수 추정이 가능하게 하는 확률적 근거를 마련해준다.
  •  모집단의 분포가 균등분포, 비균등분포, 정규분포 등을 이룰 때 중심극한정리를 적용할 수 있다.

35. 다음 중 가설 검정에 대한 설명으로 틀린 것은?
  •  귀무가설은 현재까지 주장되어 온 것이나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설이다.
  •  가설 검정에는 귀무가설 1개, 대립가설 1개만 존재한다.
  •  귀무가설은 H0으로 표기하고, 대립가설은 H1으로 표기한다.
  •  대립가설은 표본을 통해 확실한 근거를 가지고 입증하는 가설이며, 귀무가설과 대립되고 뚜렷한 증거가 있을 때 주장한다.

36. 다음 중 변수 선택 방법에 대한 설명으로 틀린 것은?
  •  예측하고자 하는 변수와 상관계수가 높은 변수일수록 해당 변수는 영향력이 크다.
  •  각각의 독립변수를 하나만 사용한 예측 모형의 성능을 이용하여 가장 분류 성능이 높은 변수를 선택한다.
  •  특성 중요도를 계산할 수 있는 랜덤포레스트 등의 다른 모형을 사용하여 일단 특성을 선택하고, 최종 분류는 다른 모형을 사용한다.
  •  분산이 큰 데이터를 종속변수에 영향을 덜 줄 것이므로 사용하지 않는다.

37. 다음 중 차원 축소 방법에 대한 설명으로 틀린 것은?
  •  선형판별분석은 데이터를 최적으로 분류하여 차원을 축소하는 방법이며, 주성분 분석은 데이터를 최적으로 표현하는 관점에서 차원을 축소하는 방법이다.
  •  요인분석은 데이터 안에 관찰할 수 없는 잠재적인 변수가 존재할 때, 변수들의 상관관계를 고려하여 서로 유사한 변수들끼리 묶어주는 방법이다.
  •  독립성분 분석은 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분류하여 차원을 축소하는 기법이다.
  •  특이값 분해는 행과 열의 크기가 같은 MxM 차원의 정방행렬 데이터를 적용하여 특이값을 추출하고 데이터를 축약할 수 있다.

38. 표준편차가 10, 평균이 60인 정규분포를 따르는 모집단이 있다. 변숫값이 70일 때 Z-score 스케일링을 수행한 값은?
  •  10
  •  1
  •  0.1
  •  -1

39. 다음 중 공분산에 대한 설명으로 틀린 것은?
  •  공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나, 2개의 변수 측정 단위의 크기에 따라 값이 달라지므로 상관 분석을 통해 정도를 파악하기에 적절하다.
  •  2개의 확률변수의 상관 정도를 나타내는 값이다.
  •  공분산의 수식은 Cov(x1, x2)=Sigma(i=1~n) (x1i-X1)(x2i-X2)이다.
  •  2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다.

40. 분석 모형 설계 절차로 옳은 것은?
  •  모델링 > 검증 및 테스트 > 운영화 및 적용 > 분석 요건 정의
  •  분석 요건 정의 > 모델링 > 검증 및 테스트 > 운영화 및 적용
  •  검증 및 테스트 > 운영화 및 적용 > 분석 요건 정의 > 모델링
  •  운영화 및 적용 > 분석 요건 정의 > 모델링 > 검증 및 테스트

41. 자연어 처리를 위한 Transformer 기법과 관련된 용어는?
  •  Attention
  •  Generator
  •  Forget gate
  •  Feature map

42. 다음 설명에서 괄호 안에 들어갈 이름으로 틀린 것은?
- (      )는 물체 감지와 객체 인식에 대한 딥러닝 기반 접근 방식이다.
- (      )는 입력된 이미지를 일정 분할로 그리드한 다음, 신경망을 통과하여 바운딩 박스와 클래스 예측을 생성하여 최종 감지 출력을 결정한다. 실제 이미지 및 비디오에서 테스트하기 전에 먼저 전체 데이터 세트에 대하여 여러 인스턴스를 학습한다.
- (        )는 Joseph Redmon 등에 의해 처음 소개되었으며, 2015년 논문에 처음 등장한 후 다수의 개발자에 의해 v8까지 출시되었다.
- (        )는 복잡한 파이프라인을 다루지 않기 때문에 매우 빠른 모델이며, 실시간 의사결정이 필요한 분야에서 특히 두각을 드러내고 있다.
  •  GAN
  •  LSTM
  •  YOLO
  •  Diffusion

43. 다음 중 가설 검정에 대한 설명으로 틀린 것은?
  •  가설 수립 단계에서 귀무가설과 대립가설을 수립한다.
  •  단측검정은 음의 방향과 양의 방향 중 한 방향만을 살펴보는 검정이다.
  •  귀무가설은 모집단의 특성에 대해 옳다고 제안하는 주장이다.
  •  양측검정에서는 채택역을 양쪽으로 설정하여 가설을 검정한다.

44. 다음 중 연관있는 것끼리 짝을 이룬 것은?
  •  Bagging - Gradient Boost
  •  Bagging - Extra Trees
  •  Boosting - Random Forest
  •  Boosting - Extra Trees

45. 실생활에 활용한 '분류' 모형에 대한 설명으로 맞는 것은?
  •  부동산과 경제 지표들을 활용하여 집값을 예측했다.
  •  AI 생성 모델을 활용하여 피카소 화풍의 그림을 생성했다.
  •  마케팅 부서에서 온라인 쇼핑몰 구매 기록을 토대로 비슷한 취향의 고객들을 그룹으로 묶었다.
  •  우주연구센터에서 관측한 별들의 정보를 기반으로 별의 종류를 예측했다.

46. 도시 내 비만인의 비중이 30%이다. 비만인 사람 중 키가 180cm 이상이 사람은 10%, 비만이 아닌 사람 중 키가 180cm 이상인 사람은 20% 일 때, 키가 180cm 이상인 사람이 비만인 확률은?
  •  약 0.36
  •  약 0.27
  •  약 0.18
  •  약 0.09

47. 다음 그림과 같은 인코딩 방식은?
  •  원-핫 인코딩
  •  레이블 인코딩
  •  정수 인코딩
  •  문자 인코딩

48. 다음은 회귀분석 식 중 하나이다. 설명으로 틀린 것은?
  •  L1 규제에 해당한다.
  •  라쏘 회귀라고 한다.
  •  훈련 데이터셋에 과적합 되는 효과가 있다.
  •  변수 선택이 되는 효과가 있다.

49. 다음 중 틀린 것은?
  •  민감도: TP/(TP+FN)
  •  특이도: TP/(TP+FP)
  •  정확도: TP+TN/(TP+TN+FP+FN)
  •  재현율: TP/(TP+FN)

50. 다음 중 Q-Q 플롯에 대한 설명으로 옳은 것은?
가. 왜도가 0 이상이다.
나. 데이터 분포가 왼쪽에 치우쳐져 있다.
다. 데이터의 평균보다 중앙값이 크다.
  •  가, 다
  •  가, 나
  •  나, 다
  •  가, 나, 다

51. 다음 데이터를 표현하기에 가장 적절한 시각화 기법은?
  •  레이더 차트
  •  산점도 행렬
  •  버블 차트
  •  모자이크 플롯

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr